基于 多 变量 LSTM 网 络 的 太阳 黑子 活动 预测 分 析 
RR MIB?) WE DR, eK? 
(1. 昆 明理 工大 学 信息 工程 与 自动 化 学 院 ， 云 南 昆明 650500; 
2. 云 南 省 计算 机 应 用 重点 实验 室 ， 云 南 昆明 650500) 
摘要 : 通过 添加 太阳 黑子 周期 长 度 构 建 长 短期 记忆 网 络 (Long Short-Term 
Memory，LSTM) 的 多 变量 输入 数据 ， 在 多 时 间 步 长 上 预测 未 来 10 年 的 太阳 黑子 
变化 。 将 数据 集 以 训练 数据 长 度 为 标准 划分 出 两 组 时 间 序 列 片段 ， 分 别 是 分 片 
11 和 分 片 6， 并 在 分 片上 分 别 对 比 了 单 变 量 和 多 变量 在 单 时 间 步 长 和 多 时 间 步 
长 上 的 预测 效果 。 最 后 ， 得 出 以 下 主要 结论 : (1) 比 起 分 片 6， 分 片 11 的 采样 方 
式 有 更 低 的 均 方 根 误差 (Root mean squared error, RMSE) ; (2) 最 优 多 步 长 的 预 
测 效 果 比 单 步 长 的 要 好 ; (3) 通过 图 例 上 周期 的 起 始点 、 结 束 点 和 最 大 振幅 位 置 
三 个 点 的 准确 度 证 明了 多 变量 的 多 步 长 方法 确实 有 更 好 的 预测 效果 。 
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太阳 黑子 是 日 面 上 最 常见 的 一 种 太阳 活动 现象 ， 它 们 的 数量 随时 间 的 变化 
呈现 大 约 11 年 的 周期 变化 。 太 阳 黑 子 数 的 增加 往往 伴随 着 太阳 爆发 活动 的 增强 。 
灾害 性 空间 天 气 则 会 引起 地 球 磁场 的 扰动 ， 干 扰 雷 达 和 无 线 电 通 讯 ， 同 时 也 间 
妆 影 响 地 球 的 气候 变化 "2 4。 基 于 已 ”是 预测 下 一 个 太阳 活动 周 的 活动 指数 的 最 
大 振幅 、 持 续 的 时 间 以 及 最 大 振幅 出 现 的 时 间 。 

太阳 活动 的 预测 方法 主要 有 3 类 : 前 体 预 测 法 、 外 推 方法 和 模型 预测 法 。 
在 前 体 预测 方法 中 ， 无 论 是 采用 地 磁 度 量 值 外 预测 还 是 极地 测量 值 包 预测 太阳 
活动 的 最 大 幅度 ， 预 测 结 果 都 普遍 存在 延迟 。 外 推 方法 包括 线性 回归 和 非 线 性 
回归 法 。 模 型 预报 法 中 的 模型 主要 是 指 太阳 发 电机 组 ”'“"， 是 建立 在 大 量 物 
理 基础 之 上 的 物理 模型 ， 详 见 文 [11]。 

目前 ， 第 24 个 太阳 活动 周 已 经 接近 尾声 ， 所 以 太阳 活动 周 的 预测 都 是 围绕 
第 25 周 展开 "*'。 随 着 机 器 学 习 和 深度 学 习 技 术 的 出 现 ， 许 多 方法 被 应 用 于 
25 活动 周 的 预测 分 析 中 "' 引 。 其 中 ， 文 [16] 采 用 长 短期 记忆 网 络 模 型 预测 了 第 
25 个 太阳 活动 周期 的 峰值 出 现在 2022 年 7 月， 介绍 了 如 何在 一 个 很 长 的 太阳 黑 
子 序列 中 开发 预测 模型 ， 并 将 预测 结果 与 真实 观测 值 之 间 的 均 方 根 误 差 作 为 模 
型 预测 效果 的 参考 依据 。 

长 短期 记忆 网 络 最 早 是 由 文 [19] 提出， 后 发 展 为 循环 神经 网 络 (Recurrent 
Neural Network, RNN) 中 的 一 种 。 长 短期 记忆 网 络 的 工作 单元 由 “ 门 ” 保 持 或 
抑制 单元 状态 ， 以 及 单元 内 外 的 信息 交流 ， 单 元 之 间 按 链 式 链 接 的 特殊 结构 为 
数据 之 间 提 供 长 期 的 依赖 关系 ， 这 种 信息 持久 化 的 特性 被 广泛 应 用 到 时 间 序 列 
的 相关 工作 中 。 长 短期 记忆 网 络 的 递归 特性 使 得 单元 不 会 立即 输出 当前 输入 的 
响应 ， 而 是 等 待 时 间 间 隙 的 到 来 ， 时 间 间 隙 由 时 间 步 长 控制 。 文 [16] 采 用 长 短 
期 记忆 网 络 模型 和 时 间 步 长 为 1 的 单 变量 预测 方法 。 

本 文 提 出 了 一 种 构建 多 变量 的 方法 ， 结 合 长 短期 记忆 网 络 预测 未 来 10 年 的 
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太阳 黑子 数 ， 并 对 比 了 单 变 量 和 多 变量 分 别 在 单 时 间 步 长 和 多 种 多 时 间 步 长 的 
预测 结果 ， 最 后 得 出 最 优 策略 预测 未 来 10 年 的 太阳 黑子 数 ， 该 策略 由 预测 结果 
的 最 小 均 方 根 误差 得 出 。 结 果 证 明 多 变量 在 多 步 长 预测 上 的 效果 更 好 ， 并 且 用 
图 例 上 3 个 点 的 准确 度 证 明了 本 文 的 结论 ，3 个 点 分 别 是 周期 的 起 始点 、 结 束 点 
和 最 大 振幅 位 置 。 


1. 数据 


太阳 黑子 数据 采用 SILSO 网 站 (http://www. sidc.be/silso/datafiles) 发 
布 的 太阳 黑子 2. 0 版 本 中 的 13 个 月 平滑 月 度数 据 (Source: WDC-SILSO, Royal 
Observatory of Belgium，Brussels) 。 数 据 范围 从 1749 年 6 月 到 2019 年 3 月 ， 
历时 270 年 ， 包 含 3237 组 数据 ， 如 图 1， 图 中 的 横 坐 标 为 每 个 太阳 周期 的 起 始 
日 期 ， 由 太阳 黑子 周期 记录 (http://sidc. oma. be/silso/cyclesmm) 给 出 。 例 如 
第 1 个 周期 的 时 间 范 围 是 1755 年 2 月 至 1766 年 5 月 ， 第 2 个 周期 是 1766 年 6 
月 到 1775 年 5 月 。 下 文 将 13 个 月 平滑 月 度 太阳 黑子 数 简 称 为 月 平滑 黑子 数 。 


7. 
300 Sunspots of 13 months smooth monthly data from 1749 to 2019 
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图 1 1749 年 到 2019 年 间 的 13 个 月 平滑 月 度 太阳 黑 子 观测 值 
Fig. 1 13-month smooth monthly sunspot observations from 1749 to 2019 


2. 方法 


2.1 长 短期 记忆 网 络 模 型 介绍 

长 短期 记忆 网 络 在 神经 网 络 快速 发 展 的 当今 ， 被 广泛 应 用 到 深度 学 习 领域 ， 
并 成 为 一 种 应 用 广泛 的 神经 网 络 模 型 ， 与 基础 神经 网 络 相 比 ， 长 短期 记忆 网 络 
处 理 时 间 序 列 的 特性 不 仅 在 层 与 层 之 间 建 立 了 权 连 接 ， 在 相同 层 之 间 也 建立 了 
权 链 接 。 长 短期 记忆 网 络 模型 是 一 种 循环 神经 网 络 模型 ， 循 环 神经 网 络 是 一 类 
以 序列 为 基础 ， 在 序列 的 演进 方向 进行 递归 并 将 所 有 节点 按 链 式 链接 的 递归 神 
经 网 络 ， 这 种 链 式 链接 的 特性 揭示 了 序列 之 间 的 密切 关系 。 长 短期 记忆 网 络 解 
决 了 循环 神经 网 络 在 处 理 长 序列 数据 时 梯度 消失 的 问题 ， 所 以 ， 长 短期 记忆 网 
络 适用 于 处 理 时 间 序 列 中 间隔 和 延迟 相对 较 长 的 事件 ， 例 如 语音 识别 、 机 器 翻 
译 以 及 时 间 序 列 的 预测 。 

长 短期 记忆 网 络 中 的 工作 单元 内 部 ， 如 图 2， 单 元 接收 当前 时 刻 的 输入 信息 、 
上 一 时 刻 的 隐藏 状态 和 单元 状态 ， 并 由 3 个 门 实现 信息 的 持久 化 和 抑制 。 它 们 
分 别 是 中 忘 门 、 输 入 门 和 控制 门 。 遗 志 门 通过 激活 函数 决定 了 对 前 一 时 刻 的 隐 
藏 状态 “遗忘 ”多 少 信息 。 输 入 门 包含 两 部 分 ，〈1) 通过 函数 选择 什么 值 要 被 


RA, (2) 通过 激活 函数 生成 候选 向 量 值 ， 二 者 的 乘积 作为 一 部 分 状态 量 与 遗 
忘 门 中 生成 的 和 上 一 时 刻 状态 量 的 乘积 之 和 作为 当前 的 单元 状态 。 最 后 ， 输 出 
门 通过 生成 候选 向 量 ， 经 过 函数 选择 保留 下 来 的 信息 ， 并 将 结果 作为 当前 隐藏 
状态 传输 给 下 一 个 单元 和 上 一 层 的 同一 时 刻 单元 。 


图 2 ”长 短期 记忆 网 络 单元 图 3 ”长 短期 记忆 网 络 的 网 络 层 
Fig. 2 LSTM cell Fig. 3 LSTM network layers 


长 短期 记忆 网 络 的 工作 原理 如 图 3， 是 一 个 有 个 时 间 步 长 、 两 个 网 络 层 的 结 
构 ， 太 阳 黑 子 组 成 的 时 间 序 列 , 第 1 层 的 1 个 工作 单元 在 接收 输入 数据 后 与 初始 
化 的 单元 状态 以 及 隐藏 状态 计算 当前 响应 ， 并 将 响应 传递 给 第 2 个 单元 以 及 上 
一 层 的 第 1 个 单元 ， 第 1 层 的 第 2 个 单元 在 下 一 时 刻 接收 输入 数据 和 上 一 个 单 
元 的 状态 量 后 , 又 将 结果 传输 给 第 3 个 单元 和 第 2 层 的 第 2 个 单元 ， 以 此 类 推 。 
第 2 层 的 单元 接收 第 1 层 的 输出 作为 输入 ， 按 照 与 第 1 层 相 同 的 方式 传递 计算 
的 结果 ， 并 输出 每 个 单元 的 隐藏 状态 作为 每 个 时 间 步 长 的 输出 结果 。 在 长 短期 
记忆 网 络 中 ， 时 间 序 列 按照 时 间 步 长 被 分 为 多 个 有 序数 据 段 ， 每 个 数据 段 传 入 
的 工作 单元 中 都 以 不 同 的 权重 计算 输出 结果 。 时 间 步 长 为 1 的 预测 方法 称 为 单 
步 长 预测 方法 ， 大 于 等 于 1 的 称 为 多 步 长 预测 方法 。 

由 此 可 知 ， 当 设 时 间 步 长 为 1 的 时 候 ， 只 有 一 个 cell 提供 权重 和 输出 输入 
的 响应 ， 所 有 数据 通过 一 个 cell 建立 时 间 序 列 数据 的 信息 持久 性 。 而 在 多 个 时 
间 步 长 的 网 络 中 ， 多 个 cel1 为 时 间 序 列 提供 不 同 的 权重 ， 并 且 不 仅 在 cell 自 
身 建立 信息 的 持久 性 ， 在 链 式 链接 的 cell 之 间 也 为 时 间 序 列 建立 信息 的 持久 化 ， 
并 增加 了 时 间 序 列 数据 在 时 间 上 的 相关 性 。 所 以 ， 从 一 定 层 度 上 说 ， 多 时 间 步 
长 的 网 络 模型 能 为 时 间 序 列 在 响应 过 程 中 提供 更 丰富 的 权 链 接 和 多 重 的 信息 相 
关 性 ， 基 于 此 提出 了 多 步 长 的 预测 方法 。 
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Table 1 Time step strategy 
Multiple step & lag methods 


Ste 1 2 3 4 5 6 8 10 12 15 20 24 30 40 60 120 


is 120 60 40 30 24 20 15 12 10 8 6 5 4 3 2 1 
2.2 多 步 长 设计 

为 了 验证 多 步 长 方法 的 效果 并 取得 最 优 步 长 ， 提 出 了 多 组 多 时 间 步 长 的 策 
略 ， 如 表 1。 为 了 能 够 充分 利用 数据 ， 所 有 的 步 长 设置 为 120 的 约 数 ， 每 组 步 长 
与 滞后 数 之 间 都 满足 跨越 120 个 数据 的 间隔 ， 这 与 本 文 的 目的 相 吻合 ， 即 预测 
120 个 月 后 的 月 平滑 黑子 数 。 时 间 序列 按照 时 间 步 长 分 为 多 个 有 序数 据 段 ， 滞 
后 数 表示 每 个 数据 段 起 始 值 之 间 所 相隔 的 数据 个 数 。 步 长 为 1 滞后 数 为 120 的 
为 单 步 长 预测 ， 其 余 15 组 均 为 多 步 长 的 设计 方案 。 
2.3 多 变量 构建 


在 时 间 序 列 的 预测 范畴 里 ， 只 用 太阳 黑子 数据 作为 输入 数据 预测 黑子 数 的 
方法 属于 单 变量 预测 。 除 了 上 述 的 多 步 长 预测 太阳 黑子 周期 ， 这 里 提出 了 一 种 
加 入 太阳 黑子 周期 长 度 构 建 多 变量 预测 的 方法 ， 按 照 第 1 节 提 到 的 太阳 黑子 周 
期 记录 把 每 一 个 太阳 黑子 周期 中 的 原 黑 子 观测 数据 以 他 们 在 周期 中 的 位 置 记 录 
下 来 ， 作 为 除 黑子 原 数 据 以 外 的 另 一 个 输入 数据 ， 把 输入 数据 的 维度 增加 到 两 
维 ， 这 就 是 构建 多 变量 的 预测 方法 。 具 体 方法 举例 : 在 一 个 黑子 观测 值 个 数 为 
135 的 太阳 周期 中 ， 将 黑子 在 该 周期 中 的 观测 值 作为 其 中 一 个 输入 数据 ， 并 构 
建 一 个 以 0 开头 到 134 的 序列 ， 序 列 值 与 观测 值 一 一 对 应 。 这 不 仅 记 录 了 观测 
值 在 周期 中 的 相对 位 置 ， 也 记录 了 该 周期 的 长 度 。 月 黑子 平滑 数 在 第 1 个 最 小 
周期 开始 之 前 有 一 段 不 完整 的 数据 ， 用 黑子 周期 的 平均 长 132 作为 该 不 完整 周 
期 的 长 度 ， 从 66 开始 记录 至 132 作为 该 67 个 观测 值 的 序列 。 

代表 太阳 黑子 的 观测 值 ， 代 表 该 观测 时 刻 的 序列 值 ， 代 表 观 测 数据 的 个 数 ， 

变量 特征 表示 如 下 : 


2.4 子 序列 采样 

在 整个 太阳 黑子 的 时 间 序 列 中 ， 为 了 保留 观察 值 对 时 间 的 依赖 性 ， 采 用 滑 
动 窗口 的 方式 选择 连续 的 子 样本 ， 从 而 创建 多 个 连续 子 序列 分 别 构建 模型 ， 并 
在 已 有 的 观察 值 上 评价 开发 策略 。 测 试 采 用 交叉 验证 的 方法 验证 模型 的 预测 效 
果 ， 使 得 模型 有 更 高 的 可 靠 性 。 

整个 数据 集 分 为 两 种 长 度 的 子 序列 ， 分 别称 为 分 片 11 和 分 片 6， 分 片 11 有 
11 个 子 序 列 ， 分 片 6 有 6 个子 序列 。 每 个 子 序列 的 数据 被 分 为 训练 集 和 测试 集 ， 
其 中 训练 集 用 来 训练 长 短期 记忆 网 络 模型 ， 测 试 集 用 来 评价 长 短期 记忆 网 络 预 
测 模型 。 在 深度 学 习 方 法 中 ， 为 了 使 模型 更 健 半 并且“ 学习” 到 更 多 的 特征 ， 
在 建 模 过 程 中 使 用 的 训练 集 数 据 量 往往 要 比 测试 集 庞大 。 当 数据 集 的 样本 或 观 
测 值 充足 时 ， 在 保障 测试 集 的 数量 能 够 有 效 验 证 模型 并 且 满 足 实验 目的 的 同时 ， 
尽 可 能 地 扩充 训练 集 。 本 文 用 测试 集 数据 量 的 5 信和 10 倍 分 别 作为 分 片 11 和 
分 片 6 的 训练 集 。 此 外 ， 训 练 集 的 数据 量 要 大 于 等 于 240， 因 为 训练 集会 被 划分 
为 两 部 分 : 输入 序列 和 目标 值 序 列 ， 二 者 起 始 值 之 间 相 差 120 个 数据 ， 并 且 无 
论 输 入 序列 的 长 度 为 多 少 ， 目 标 值 序列 的 最 小 长 度 为 120。 本 文 输入 序列 和 目 
标 值 序列 取 相 同 长 度 ， 所 以 ， 当 要 预测 未 来 120 个 月 的 太阳 黑子 数 时 ， 测 试 集 
的 长 度 只 能 为 120。 

分 片 11 和 分 片 6 的 训练 分 别 包 含 600 和 1200 个 观测 值 ， 以 及 相同 长 度 的 测 
试 数据 120， 每 个 子 序列 之 间 的 起 始 数据 分 别 相隔 250 和 380 个 观测 值 ， 采 样 参 
数 如 表 2。 该 采样 方式 虽然 有 两 种 长 度 的 子 序列 ， 但 两 种 分 片 跨 越 的 数据 总 长 
度 都 是 3220 个 ， 序 列 最 后 的 17 个 数据 没有 被 采用 。 在 最 后 的 预测 工作 中 ， 训 
练 数 据 由 相同 采样 训练 集 的 时 间 最 邻近 数据 重新 构建 。 

2BH 11 和 分 片 6 的 采样 参数 


Table 2 Sampling parameters of 11-slice and 6-slice 


Slice number Train length Test length Skip-span length Remaining data 
11 600 120 250 17 
6 1200 120 380 17 


2. 5 验证 方法 

在 已 有 的 观测 值 上 做 “预测 ”的 目的 是 为 了 给 所 设计 模型 的 预测 结果 提供 
一 个 可 靠 的 依据 ， 所 以 ， 在 月 平滑 黑子 数据 集中 采样 后 的 每 一 个 子 序列 采用 相 
同 的 模型 以 及 模型 中 相同 的 超 参数 开发 预测 模型 ， 将 每 一 个 子 序 列 预测 结果 与 


该 时 刻 的 观测 值 的 均 方 根 误差 作为 在 此 子 序列 上 的 预测 效果 。 最 终 ， 对 于 一 个 
完整 的 数据 集 ， 将 所 有 子 序列 的 平均 均 方 根 误差 作为 在 该 数据 集 上 评判 预测 模 
型 的 效果 。 也 就 是 说 ， 对 于 11 个 子 序列 的 采样 方式 ， 有 11 个 均 方 根 误差 ， 对 
它们 求 均值 ， 该 均值 就 是 在 该 种 开发 策略 上 的 预测 效果 。 


3， 实 验 结果 和 分 析 


用 PyTorch 框架 作为 开发 模型 ， 长 短期 记忆 网 络 的 设计 上 使 用 两 个 网 络 层 ， 
50 个 隐藏 单元 ， 并 用 Adam 作为 优化 器 ， 采 用 MAE 作为 损失 函数 。 并 用 Visdom 
工具 实时 检测 损失 函数 的 收敛 情况 ， 模 型 一 共 训练 100 个 周期 。 
结合 第 2.4 节 中 的 采样 方式 ， 对 比 了 单 变量 和 多 变量 所 有 步 长 方案 ， 即 表 1 中 
的 预测 效果 ， 分 别 用 所 有 子 序列 均 方 根 误差 的 平均 值 (AVG) 和 所 有 子 序列 均 
方 根 误 差 的 标准 差 (STD) 来 说 明 。 
3. 1 结果 
3.1.1 单 变量 预测 

首先 对 比 了 单 变量 在 不 同步 长 策略 上 的 预测 效果 ， 其 中 包括 单 步 预测 和 15 
种 多 步 长 的 多 步 预测 ， 表 3 分 别 展 示 了 分 片 11 和 分 片 6 在 单 步 长 预测 和 最 优 多 
步 长 上 的 平均 均 方 根 误差 。 分 片 11 中 步 长 为 8、 灌 后 数 为 15 的 多 步 长 实验 取得 
了 最 低 的 均 方 根 误差 平均 值 为 43. 1， 相 比 单 步 长 预测 的 45. 0 降低 1.9， 标 准 差 
从 20. 2 降低 到 19. 1。 分 片 6 中 在 步 长 为 5、 灌 后 数 为 24 的 多 步 长 取得 最 低 平 均 
均 方 根 误差 值 为 50.4， 相 比 单 步 长 预测 的 53.5 降低 3.1， 标 准 差 反而 从 16.6 
增 大 到 18. 1。 
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Table 3 Univariate results of 11-slice and 6-slice in single-step and optimal multi-step 


Subsequence AVG STD 
Methods 1 2 3 4 5 6 7 8 9 0 11 
Single- 
47.9 35.9 66.9 54.7 27.8 22.0 29.8 54.8 29.1 33.3 92.6 45.0 20.2 
. step 
11- Univa 
slice riate Multi- 
step 49.9 31.6 68.0 35.2 16.6 31.8 33.7 46.2 36.9 34.8 89.1 43.1 19.1 
Single- 
50.7 28.3 43.5 53.8 62.4 82.4 \ \ \ \ \ 53.5 16.6 
; step 
6- Univa 
slice riate Multi- 
step 48.4 24.6 37.6 50.1 58.6 83.2 \ \ \ \ \ 50.4 18.1 


3.1.2 多 变量 预测 
变量 的 预测 同样 对 比 了 在 单 步 长 和 多 步 长 方法 上 的 效果 ， 表 4 分 别 展 示 
了 分 片 11 和 分 片 6 在 单 步 长 预测 和 最 优 多 步 长 上 的 平均 均 方 根 误 差 。 分 片 11 
在 步 长 为 6、 灌 后 数 为 20 时 的 多 步 长 取得 最 小 均 方 根 误差 为 42. 8， 相 比 单 步 预 
WAY 45. 4 降低 2.6， 标 准 差 为 15. 6， 比 单 步 预测 的 23. 6 减 小 8. 0。 分 片 6 在 步 
长 为 12、 滞 后 数 为 10 时 取得 最 小 均 方 根 误差 为 51.6， 比 单 步 预测 的 55. 1 BET 
3. 5， 标 准 差 从 20. 1 增 大 到 23. 4。 
最 后 分 别 用 分 片 11 和 分 片 6 的 最 优 策略 ， 即 多 变量 的 6 个 步 长 和 单 变 量 的 
5 个 步 长 ， 预 测 了 未 来 10 年 的 太阳 黑子 数 ， 结 果 见 图 4。 在 分 片 11 中 第 25 个 太 
阳 周 期 的 最 大 振幅 为 144. 9， 出 现在 2022 年 12 月 。 分 片 6 的 第 25 个 太阳 周期 


最 大 振幅 为 180. 4， 出 现在 2024 年 5 月 。 
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Table 4 Multivariate results for 11-slice and 6-slice at a single-step and optimal multi- 
step results 


A TD 
Methods Subsequence VG S 
1 2 3 4 5 6 7 8 9 10 11 
M Si 
: 2 94 57 15 A7 4 52 29 3B 79 A 236 
e 1 6 7 5 4 1 0 0 9 2 2 i 
1 | step 
1 t 
= i 
s v 
| a Mult 
$ 54. 26. 51. 26. 29. 29. 49. 40. 45. 37. 81. 42.8 15.6 
p= 本 . 
3 5 2 5 2 4 3 6 6 1 7 0 
C 1 step 
e a 
t 
e 
M Sne 56 3 27 7 6 82 
le- ` g ` ` ` ` ; g 
u e 2 2 4 4 1 2 \ \ \ \ \ 55.1 20. 1 
| step 
6 
= t 
i 
s 
| V 
i a Mult 6 20. 28. 4 60 90 
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图 4 分 片 11( 左 ) MAH 6 (A) 预测 未 来 10 年 的 太阳 黑子 数 
Fig.4 11-slice (left) and 6-slice (right) predict the number of sunspots in the next 10 years 


3. 2 分 析 
从 实验 结果 可 以 看 出 ， 就 预测 方法 来 说 , 无 论 是 分 片 11 还 是 分 片 6， 多 步 长 
预测 结果 都 比 单 步 长 的 好 。 在 单 变量 和 多 变量 的 比较 中 ， 分 片 11 的 多 步 长 平均 
pales 43.1 下 降 到 42.8， 降 低 了 0.3， 标 准 差 降低 了 3.5。 对 于 分 片 
虽然 多 步 长 在 变量 反而 增加 了 1 2， 但 是 从 结果 可 以 看 出 ， 在 第 2、3 和 4 
Ne 但 在 第 1 和 第 6 个 子 序列 上 误差 过 六 使 得 最 终 
的 平均 均 方 根 误差 大 于 单 变 量 的 多 步 长 预测 结果 。 综 上 所 述 ， 分 片 11 在 多 变 
的 最 优 多 步 长 ， 即 步 长 为 6 时 取得 了 最 好 的 效果 ， 不 仅 得 到 了 更 小 的 平均 均 方 
根 误差 ， 还 有 最 小 的 均 方 根 误差 标准 差 。 所 以 认为 分 片 11 的 结果 更 为 可 靠 ， 即 
未 来 10 年 的 太阳 黑子 最 大 振幅 为 144. 9， 出 现在 2022 年 12 月 。 


4. 讨论 


4. 1 多 变量 的 多 步 长 预测 效果 


在 上 述 结 果 中 ， 分 片 11 比分 片 6 效 果 更 突出 ， 为 此 以 分 片 11 为 例 详细 对 比 
了 每 个 子 序列 在 单 变量 单 步 长 、 最 优 多 步 长 和 多 变量 最 优 多 步 长 3 种 方法 的 均 
方 根 误 差 ， 如 表 5。 从 每 个 子 序 列 的 均 方 根 误差 可 以 看 出 ， 在 第 
2、4、5、8、11 子 序列 中 单 变量 的 多 步 长 预测 比 单 步 长 预测 误差 小 ， 多 变量 的 
多 步 长 预测 在 第 2、3、4、8、11 子 序列 上 误差 均 小 于 单 变量 的 单 步 长 和 最 优 多 
步 长 预测 结果 。 平 均 均 方 根 误 差 在 多 变量 的 多 步 长 预测 中 下 降 到 了 42. 8， 相 比 
单 变量 的 单 步 长 预测 下 降 了 2. 2， 标 准 差 则 从 20. 2 下 降 到 15. 6， 降 低 了 4. 6。 
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Table 5 The results of 11-slice on univariate single-step, univariate optimal multi-step, 
and multi-variable optimal multi-step 


Subsequence 


Methods AVG STD 
1 2 3 4 5 6 7 8 9 10 11 
Univariate & Single- 47. 35. 66. 54. 27. 22. 29. 54. 29. 33 
step 9 9 9 了 8 0 8 8 1 3 2 see as 
Univariate & Multi- 49. 31. 68. 35. 16. 31. 33. 46. 36. 34. 
step 9 6 0 2 6 8 7 2 9 8 87.1 人 Aa 
Multivariate & Multi- 54. 26. 51. 26. 29. 29. 49. 40. 45. 37 
step 5 2 5 2 4 3 6 6 1 7 BO. 42 人 
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图 5 第 2、4 和 7 个 分 片 在 单 变 量 的 单 步 长 、 单 变量 的 多 步 长 和 多 变量 的 多 步 长 预测 结果 


Fig.5 The results of slice 2, 4 and 7 prediction in univariate single step, univariate multi-step and 
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multivariable multi-step respectively 


本 文 详细 列举 了 第 2、4 和 7 个子 序列 在 3 种 方法 中 的 预测 结果 。 如 图 5， 
每 一 行 分 别 代表 3 个 不 同 的 子 序列 ， 每 一 列 分 别 代表 单 变 量 的 单 步 、 单 变量 的 
多 步 和 多 变量 的 多 步 三 3 预测 方法 。 在 单 变量 的 单 步 预 测 中 , 预测 的 黑子 变化 过 
于 平滑 ， 在 预测 的 极 大 值 处 很 容易 出 现 连续 的 水 平 预测 值 。 在 单 变量 的 多 步 预 
测 中 ， 极 值 处 的 水 平 变化 有 所 改善 却 又 波动 过 大 。 相 比 其 他 两 种 方法 ， 多 变量 
的 多 步 长 预测 不 仅 没有 在 极 大 值 处 于 水 平 变化 ， 也 没有 周期 内 的 大 幅度 波动 ， 


反而 较为 准确 地 预测 了 周期 的 起 始 和 结束 时 间 (第 7 个 子 序 列 ) 以 及 在 该 时 刻 的 
极 小 值 ， 同 样 也 较 准 确 预测 了 最 大 振幅 的 数值 和 出 现 的 时 间 。 

第 7 个 子 序列 的 均 方 根 误差 在 3 种 方法 中 逐渐 增 大 ， 但 是 通过 对 预测 结果 的 
最 大 振幅 、 周 期 起 始点 和 结束 点 在 数值 和 时 间 上 的 分 析 ， 断 定 在 最 大 的 均 方 根 
误差 也 就 是 多 变量 的 多 步 长 预测 中 有 更 好 的 预测 效果 ， 造 成 这 种 现象 的 原因 应 
该 是 两 个 极 值 之 间 的 预测 过 程 中 出 现 的 波动 以 及 相位 的 偏 移 ， 子 序列 5、6 与 7 
情况 类 似 。 第 1、9、11 个 子 序列 则 由 于 所 预测 的 周期 峰值 突变 ， 造 成 了 较 大 的 
均 方 根 误差 。 

4. 2 数据 集 与 采样 方法 对 预测 结果 的 影响 

文 [16]， 文 [20-21] 均 采用 了 长 短期 记忆 网 络 模型 预测 未 来 的 太阳 黑子 数 ， 
其 中 文 [16] 结 合 SILS0 的 太阳 黑子 月 度 平均 数据 及 单 变 量 的 单 步 长 方法 预测 未 
来 10 年 的 太阳 黑子 数 ， 并 把 数据 分 为 6 和 12 个子 序列 训练 集 长 度 分 别 为 1200 
和 840， 测 试 集 分 别 为 600 和 240， 平 均 均 方 根 误差 分 别 为 35. 9，36. 9。 文 [21] 
用 来 自 R 数据 集 的 太阳 黑子 月 度数 据 及 单 变量 的 12 个 步 长 方法 预测 未 来 12 个 
月 的 太阳 黑子 ， 相 似 地 把 数据 分 为 6 个 子 序列 ， 训 练 集 和 测试 集 长 度 分 别 为 
1200 和 600， 平 均 均 方 根 误差 为 26.9。 文 [20] 使 用 与 文 [16] 相 同 的 数据 集 及 单 
变量 的 单 步 长 方法 预测 未 来 10 年 的 太阳 黑子 数 ， 将 数据 分 为 11 个 子 序列 ， 训 
练 数据 和 测试 数据 分 别 为 600 和 120 个 ， 得 到 平均 均 方 根 误差 为 34.4。 在 文 
[16] 与 文 [21] 训 | 练 数据 和 测试 数据 为 1200 和 600 的 结果 比较 中 ， 平 均 均 方 根 误 
差 相 差 9.0。 本 文 的 分 片 11 与 文 [20] 有 相同 长 度 的 训练 和 测试 数据 ， 取 得 的 平 
均 均 方 根 误差 为 45. 0， 与 文 [20] 相 差 10. 6。 

数据 集 本 身 的 差异 以 及 采样 的 训练 、 测 试 数据 长 度 不 一 致 ， 导 致 结果 有 和 较 
大 的 差异 ， 其 中 采样 方法 不 一 致使 均 方 根 误差 在 一 定 程 度 上 没有 办 法 类 比 。 虽 
然 R 数 据 集 有 更 好 的 预测 效果 ， 但 是 因为 数据 只 记录 到 2013 年 ， 致 使 无 法 采用 。 
SILSO 的 太阳 黑子 数据 与 R 数 据 集 的 太阳 黑子 数据 相 比 更 离散 ， 黑 子 的 波动 幅度 
更 大 ， 致 使 预测 结果 均 方 根 误差 较 差 。 

4. 3 分 片 11 和 分 片 6 在 不 同步 长 中 的 预测 结果 

本 文 对 单 变量 和 多 变量 在 表 1 提出 的 所 有 时 间 步 长 策略 进行 了 实验 ， 如 图 
6。 结 果 证 明 ， 随 着 步 长 的 增加 ， 平 均 均 方 根 误差 呈现 下 降 趋势 ， 这 种 下 降 趋 势 
在 分 片 6 中 更 为 明显 ， 之 后 随 着 步 长 的 大 幅度 增加 ， 误 差 越 来 越 大 ， 并 且 分 片 
11 的 平均 均 方 根 误差 总 体 比 分 片 6 的 偏 小 。 在 所 有 分 片 的 均 方 根 误差 标准 差 中 ， 
分 片 11 随 着 步 长 的 增多 变化 相对 平稳 ， 并 且 多 变量 的 实验 结果 比 单 变量 的 总 体 
偏 小 ， 分 片 6 的 则 波动 较 大 ， 尤 其 在 单 变 量 中 。 
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图 6 分 片 11 (a) 和 分 片 6(b) 在 多 种 步 长 策略 的 预测 结果 


Fig.6 Prediction results of 11-slice (left) and 6-slice (right) in multiple step strategies 
由 此 可 见 ， 从 总 体 的 角度 来 看 分 片 11 确实 是 比分 片 6 更 好 的 采样 方式 ， 并 
且 在 分 片 11 中 多 变量 的 预测 结果 确实 更 好 。 
4.4 在 第 21、22、23 和 24 太阳 周期 上 的 预测 结果 
为 了 给 预测 结果 提供 可 靠 的 论证 ， 用 分 片 11 和 分 片 6 的 最 优 策略 预测 了 第 
21、22、23 和 24 太阳 周期 的 月 平滑 黑子 数 ， 图 7 直观 地 展示 了 预测 效果 ， 并 将 
结果 详细 地 记录 在 表 6 中 ， 并 用 “振幅 ”表示 最 大 振幅 。 
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图 7 分 片 11 (E) 和 分 片 6 CA) FER 21, 22, 234024 个 周期 上 的 预测 结果 


Fig.7 Prediction results of 11-slice (left) and 6-slice (right) 


in cycles 21, 


22, 23 and 24 
在 第 21、22、23 和 24 周期 的 预测 结果 中 ， 分 片 11 的 最 大 振幅 与 真 


Lic 


相 比 分 别 降低 了 12.7%, 11.5%, 6. 7% 和 增 大 了 50%， 最 大 振幅 的 出 现时 间 与 真 
实 记 录 相 比分 别提 前 了 1 年 、 推 尽 了 1 年 2 个 月 、 推 以 了 1 年 1 个 月 、 提 前 了 2 


刊 


年 1 个 月 ; 在 分 片 6 中 最 大 振幅 与 真实 记录 相 比 分 别 降低 了 23.4%. 7.5%, HX 
了 12. 4% 和 54. 9%， 最 大 振幅 的 出 现时 间 与 真实 记录 相 比 分 别 推 迟 了 2 个 月 、 推 
迟 了 9 个 月 、 提 前 了 11 个 月 和 提前 了 2 年 9 个 月 。 
E6 分 片 11 DH 6B 21, 22, 23 和 24 AAPL RAER 
Table 6 Prediction results of 11-slice and 6-slice in the 21st, 
22nd, 23rd and 24th solar cycles 


Cycles 21st 22nd 23rd 24th 
True value (Amplitude / Time) 232. 9/1979. 12 212. 5/1989. 11 180. 3/2001. 11 116. 4/2014. 4 
11-slice (Amplitude / Time 203. 4/1978. 12/59 187. 9/1991.1/33 168. 2/2002. 12/21 174. 6/2012. 3/72 
/RMSE) .1 .4 .4 .0 
6-slice (Amplitude / Time 178. 3/1980. 2/59. 196. 5/1990. 8/32 202. 7/2000. 12/29 180. 4/2011. 7/68 


/RMSE ) 5 .9 “3 .1 

由 以 上 数据 分 析 可 以 看 出 ， 分 片 11 的 预测 结果 在 最 大 振幅 上 的 波动 除了 第 
22 周期 都 要 比分 片 6 小， 并 且 4 个 周期 的 平均 均 方 根 误差 为 46.5 比分 片 6 的 
47.4 略 小 。 而 分 片 6 在 最 大 振幅 出 现 的 时 间 都 表现 出 更 高 的 准确 度 ， 除 了 第 24 
周 ， 出 现 这 种 现象 的 原因 : 在 构建 模型 的 训练 数据 中 分 片 6 包含 的 完整 周期 比 
分 片 11 多 ， 所 以 “学 习 ” 到 的 周期 长 度 特征 更 多 ， 对 此 能 够 将 时 间 跨 度 预测 的 
更 准确 。 在 第 24 太阳 周期 预测 中 ， 振 幅 和 周期 起 始 时 间 偏 差 都 过 大 ， 振 幅 偏 差 
过 大 是 因为 与 之 前 的 周期 相 比 第 24 周期 的 振幅 又 然 下 降 ， 从 而 导致 了 偏差 较 大 
的 振幅 ; 而 周期 起 始 时 间 偏 差 过 大 则 是 因为 第 23 周期 的 历时 相 比 之 前 的 周期 来 
说 要 更 久 ， 有 12 年 4 个 月 ， 从 而 直接 影响 对 下 一 个 周期 起 始 时 间 的 预测 。 

总 的 来 说 ， 无 论 是 分 片 11 还 是 分 片 6， 在 各 自 的 最 优 策略 上 取得 的 预测 效 
果 都 不 错 ， 分 片 11 在 振幅 的 预测 上 有 更 大 的 优势 ， 分 片 6 在 预测 周期 的 历时 上 
更 为 准确 ， 这 为 本 文 预测 未 来 10 年 的 太阳 黑子 结果 提供 了 有 力 的 依据 。 

4.5 本 文 方法 在 太阳 黑子 预测 上 的 局 限 

从 上 面 的 讨论 可 以 看 出 ， 子 序列 的 采样 方式 直接 决定 了 数据 特征 对 长 短期 
记忆 网 络 模型 的 构建 ， 对 预测 结果 有 非常 大 的 影响 ， 这 使 子 序列 采样 方法 成 为 
对 比 不 同 预测 方法 中 的 一 项 苛刻 条 件 。 在 第 4. 4 节 的 分 析 中 ， 第 24 太阳 周期 振 
幅 突变 造成 预测 结果 偏差 较 大 ， 使 得 结果 的 准确 性 建立 在 下 一 周期 没有 发 生 突 
变 的 情况 下 。 要 为 预测 结果 提供 可 靠 的 论证 ， 只 能 将 之 前 周期 的 “预测 ”结果 
作为 参考 ， 这 就 要 求 数据 集 的 观测 量 不 能 太 小 ， 并 且 要 合理 设计 子 序列 的 长 度 ， 
保证 能 够 在 训练 出 预测 模型 的 同时 ， 还 能 为 该 方法 的 效果 提供 合理 的 论证 。 

图 5 中 的 第 7 个 分 片 预测 的 恰好 是 一 个 完整 的 周期 ， 可 以 看 出 该 周期 有 双 峰 
结构 ， 在 图 7 中 的 第 22、23 和 24 太阳 黑子 周期 也 都 有 明显 的 双 峰 结构 ， 但 在 
预测 的 结果 中 它们 多 以 最 大 振幅 处 水 平 变化 或 者 是 单 峰 振幅 并 出 现 多 个 折 点 的 
形式 表现 ， 并 没有 明显 的 双 峰 结构 。 最 大 振幅 处 的 水 平 变化 说 明 训 练 好 的 模型 
确实 有 保留 双 峰 的 特性 ， 但 两 个 峰值 之 间 的 变化 不 明显 ， 致 使 模型 在 训练 过 程 
中 没有 “学 习 ” 到 双 峰 的 细微 特征 而 出 现 水 平 变化 。 


本 文 使 用 深度 学 习 的 经 典 模型 长 短期 记忆 网 络 开 发 了 预测 月 平滑 黑子 数 的 
模型 ， 并 提出 了 一 种 构建 多 变量 的 方法 。 通 过 比较 两 种 采样 方法 分 片 11 和 分 片 
6 在 多 变量 和 单 变量 的 16 组 步 长 上 的 平均 均 方 根 误差 ， 在 分 片 11 的 多 变量 并 且 
步 长 为 6 时 取得 最 小 的 平均 均 方 根 误差 为 42.8。 并 在 详细 的 结果 分 析 中 ， 通 过 
3 个 点 的 准确 度 证 明 多 变量 的 多 步 长 预测 确实 有 更 好 的 效果 ，3 个 点 分 别 是 周期 


的 起 始 位 置 、 周 期 的 结束 位 置 和 最 大 振幅 的 位 置 。 分 片 11 和 分 片 6 在 多 变量 和 

变量 的 16 组 步 长 预测 结果 分 析 中 证 明 分 片 11 的 采样 策略 比分 片 6 有 更 好 的 
稳定 性 和 更 低 的 均 方 根 误差 。 在 对 第 21、22、23 和 24 周期 的 “预测 ”中 ， 分 
片 11 表现 出 对 预测 最 大 振幅 的 相对 优势 ， 而 分 片 6 则 在 最 大 振幅 出 现 的 时 间 上 
表现 得 更 准确 ， 这 些 结果 为 预测 未 来 10 年 的 太阳 黑子 数 提供 了 可 靠 的 依据 。 换 
而 言 之 ， 在 分 析 的 过 程 中 也 能 发 现 该 预测 方法 的 局 限 ， 例 如 在 预测 第 24 太阳 周 
期 中 振幅 突变 、 上 一 周期 历时 突变 导致 预测 结果 偏差 较 大 ; 以 及 模型 不 够 完善 
在 预测 的 结果 中 没有 体现 出 周期 的 双 峰 特性 ， 这 或 许 是 该 领域 接 下 来 的 研究 重 

最 终 ， 以 分 片 11 的 多 变量 在 步 长 为 6 处 的 模型 预测 了 未 来 10 年 的 太阳 黑子 
活动 ， 即 第 25 个 太阳 活动 周期 ， 最 大 振幅 为 144.9， 出 现在 2022 年 12 H, bk 
第 24 周期 活跃， 持续 时 间 至 少 为 10 年 。 
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Prediction and analysis of sunspot activity based 


on multivariable LSTM network 
Liang Bo, Lin Yuqi, Dai Wei, Feng Song, Yang Yunfei 


(1.Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China ; 
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Abstract: By adding the length of sunspot cycle, the 
multivariable input data of LSTM is constructed to predict the change 
of sunspot number in the next ten years with multiple time steps. 
According to the length of training data, the data set is divided 
into two groups of time series segments, namely, 11-slice and 6- 
slice. The prediction effect of univariate and multivariable on 
single-time step and multi-time step is compared. Finally, the main 
results are as follows: (1) Compared with the method of 6-slice, the 
method of 11-slice has lower root mean squared error (RMSE). (2) The 
optimal multi-step prediction is better than the single-step. (3) The 
accuracy of the starting point, ending point, and the maximum 
amplitude position of the cycle on the legend proves that prediction 
effect of the multivariate multi-step method is better than that of 
single-step method. 

Keywords: Sunspot; LSTM; Multivariate; Time step; RMSE 


